Análise dos Dados

TODO: Separar o que foi feito no dataset bruto do depois das mudanças

import pandas as pd
from plotly import express as px, io as pio
pd.options.plotting.backend = 'plotly'
pio.renderers.default = 'plotly_mimetype+notebook_connected'

Análises de dados e investigações no Dataset bruto

Descrição de como foi feita a análise(perguntas que foram feitas para a base, possíveis pontos de limpeza, versões do python e bibliotecas)

essa é a parte que viemos fazendo até agora, identificando o que nos será útil da base que escolhemos

output_file = '../data/cursos.csv.zip'
df = pd.read_csv(output_file, dtype={'cod_municipio': int})
df
ano regiao uf cod_municipio nome_municipio capital cod_area area curso rede_publica presencial bacharel ingressantes ingressantes_fem concluintes concluintes_fem frac_ingressantes frac_concluintes
0 2010 Norte RO 1100049 Cacoal False 51 Ciências biológicas e correlatas Biologia False True True 21 13 6 4 0.619048 0.666667
1 2010 Norte RO 1100049 Cacoal False 71 Engenharia e profissões correlatas Gestão ambiental False True False 61 26 27 12 0.426230 0.444444
2 2010 Norte RO 1100049 Cacoal False 71 Engenharia e profissões correlatas Gestão ambiental False False False 88 48 10 5 0.545455 0.500000
3 2010 Norte RO 1100064 Colorado do Oeste False 71 Engenharia e profissões correlatas Gestão ambiental True True False 59 33 23 11 0.559322 0.478261
4 2010 Norte RO 1100122 Ji-Paraná False 71 Engenharia e profissões correlatas Gestão ambiental False False False 109 52 32 15 0.477064 0.468750
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
17974 2019 Centro-Oeste DF 5300108 Brasília True 71 Engenharia e profissões correlatas Gestão ambiental False False False 25 13 6 3 0.520000 0.500000
17975 2019 Centro-Oeste DF 5300108 Brasília True 71 Engenharia e profissões correlatas Gestão ambiental False False False 17 7 9 3 0.411765 0.333333
17976 2019 Centro-Oeste DF 5300108 Brasília True 71 Engenharia e profissões correlatas Gestão ambiental False False False 24 8 3 2 0.333333 0.666667
17977 2019 Centro-Oeste DF 5300108 Brasília True 71 Engenharia e profissões correlatas Gestão ambiental False False False 48 14 20 2 0.291667 0.100000
17978 2019 Centro-Oeste DF 5300108 Brasília True 54 Matemática e estatística Estatística True True True 88 23 23 6 0.261364 0.260870

17979 rows × 18 columns

px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='ano', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='regiao', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='uf', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='capital', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='area', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='rede_publica', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='presencial', opacity=.75, size='concluintes_fem')
px.scatter(df, x='frac_ingressantes', y='frac_concluintes', color='bacharel', opacity=.75, size='concluintes_fem')
df['frac_ingressantes'].hist(bins=5)
df['frac_concluintes'].hist()